Description des données

Thibaut FABACHER

GMRC

Plan

  1. Correction du devoir

  2. Rappels

  3. Définitions

  4. Statistiques descriptives

Correction du devoir

Éléments importants

Encodages de caractères

Application de fonction

# Executer une fonction 

fonction(arg1 = ... , arg2 = ... , arg3 = ....)

# L'attribuer à un objet la sortie de la fonction

nom_objet <- fonction(arg1 = ... , arg2 = ... , arg3 = ....)

Chargement d’un package

# S'il n'est pas encore installé:

install.packages("nom_packages")
## Code à exécuter une seule fois

# Chargement du package
library(nom_packages)
## Code à exécuter une fois par session

Différence entre chaîne de caractères et objet

# Marche 
BDD<- read.csv("path")

## ne marche pas 
BDD<- read.csv(path)

## marche
chemin <- "path"
BDD<- read.csv(chemin)

Rappels sur les statistiques

Les statistiques au lycée

  • Moyennes, probabilités

  • Espérance et variance ?

  • Loi Bernoulli / binomiale ?

Exemple : Notes d’un élève

  • Notes d’un élève, relevées sur une année
  • Contrôle de biologie
  • 5 notes sur le trimestre

Résultats d’un élève

11 8 9 10 11
  • Moy : \(\frac{11+8+9+10+11}{5} =9.8\)

  • Bon indicateur d’un profil moyen

  • Pas de notion de régularité

2e élève

4 19 1 20 5
  • Moy : \(\frac{4+19+1+20+5}{5} =9.8\)
  • Même moyenne, mais élève irrégulier

Quelle différence ?

La variabilité

  • Phénomène de dispersion

  • Indique la dispersion autour de la moyenne

  • Plus elle est grande, moins bonne est la précision

  • Information complémentaire à la moyenne

La variance

  • \(\sigma^2 = \frac{\displaystyle\sum_{i=1}^{n}(x_i - \mu)^2} {n}\)

  • \(Var(X) = \mathbb{E}[X²]-\mathbb{E}[X]\)

  • Écart-type : \(\sigma = \sqrt{Var(X)}\)

La variance : Un outil fondamental

  • Permets de faire des comparaisons

La variance : Un outil fondamental

  • Comparer deux variables
  • Comparer deux traitements
  • Montrer qu’un traitement est meilleur.
  • Mettre en avant un effet thérapeutique.

La moyenne ne suffit pas pour conclure. La variance est un indicateur indispensable !

Population et Échantillon

La population complète

  • Dans l’idéal, les comparaisons sont effectuées sur la population TOTALE

  • Problème: Impossible de connaître TOUS les patients

Échantillon

Échantillon

  • Le plus grand possible !!!

  • La précision des estimations augmente avec la taille d’échantillon.

  • Exemple: Connaître le taux de vote pour un candidat aux présidentielles en interrogeant:

    • 4 personnes ?
    • 4590 personnes ?

Échantillon

  • Doit être représentatif de la population -> éviter les problèmes de biais

  • Choisi aléatoirement

  • Patients comparables

La puissance

  • Puissance d’un test, d’une conclusion

L’échantillon : Problèmes usuels

  • Données manquantes : Non relevées, perdues, patient absent

  • Conséquences :

    • Coût
    • Temps
    • Demandes d’augmentation auprès des autorités de santé…
    • Etc..

Les erreurs d’échantillonnage

Conclusions

  • L’échantillon, un représentant de la population

  • Savoir à l’avance quelle est la précision souhaitée

  • Prévoir les coûts

  • Attention aux données manquantes

Variables quantitatives et qualitatives

Variable quantitative

  • Variable qu’il est possible de quantifier, de mesurer.

  • Existe en deux formats: -continues: 12.4, 8.765, ( Taille, Pression artérielle etc…)

    • Discrètes : 2, 8, 14, 165 ( Nombre de lésions, rechutes, accouchements, etc..)

Variable qualitative

  • Variable non dénombrable

  • Les niveaux de la variable sont appelés modalités

  • Nominales / ordinales / binaires

  • Exemples:

    • OUI / NON
    • Un peu / beaucoup / passionnément /…
    • Bleu / Vert / Rouge
    • Homme / Femme

Autres types de variables

  • Dates
    • Date de naissance
    • Date d’hospitalisation
    • Date de décès
  • Remarques (textes libres)
    • Ressenti douleur
    • Remarques sur l’opération
    • Remarques du patient
  • Numéro divers : identification patient, dossier

Les statistiques descriptives

Variables Quantitatives

Position et Dispersion

But: “résumer” les données observées pour partager des résultats et comparer à d’autres données

Position et dispersion

  • Il faut résumer en quelques nombres les valeurs prises par la variable quantitative (distribution). Ces nombres sont appelés des paramètres

  • Il existe deux types de paramètres :

    • Les paramètres de position

    • Les paramètres de dispersion

Paramètres de position

  • Moyenne (arithmétique) : paramètre de tendance centrale visant à résumer une série de données d’une variable quantitative

\({\displaystyle \bar{x} = {\frac {1}{n}}\sum _{i=1}^{n}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{n}}{n}}}\)

mean(X, na.rm=T)

Paramètres de position

  • Médiane: paramètre de tendance centrale. Valeur qui partagent la série d’individu en deux groupes d’effectifs égaux

\(P(X\leq m)\geq 1/2 et P(X\geq m)\geq 1/2\)

median(X, na.rm=T)
  • Si le nombre de sujets est impair, la médiane est la valeur observée chez le sujet médian Ex : 2,2,4,7,8,12,17,19,20

  • Si le nombre est pair, la médiane est située entre les deux valeurs qui partagent la série

Pourquoi médiane et moyenne

  • si la distribution est asymétrique –> Mauvais indicateur

Quartiles

  • Quartiles: les quartiles sont les trois valeurs qui partagent la distribution en 4
quantile(X, na.rm = T)

Déciles/ Percentiles

  • Déciles: les déciles sont les 9 valeurs qui partagent la distribution en 10 groupes de tailles égales

Percentiles: idem, mais division en 100 groupes (percentile 97,5 ou 2,5)

quantile(x,  probs = c(0.1,0.2,0.5,0.8), na.rm = T)

Mode

  • Mode: le mode est la valeur qui revient le plus souvent dans la distribution.

Paramètre de dispersion

  • Le paramètre de position ne suffit pas

Extrèmes / Etendu

  • Extrêmes: ce sont les 2 valeurs, minimum et maximum de la distribution
min(X, na.rm = T)
max(X, na.rm = T)
  • Etendue: C’est la différence entre les 2 valeurs extrêmes. Ce paramètre est utile si les valeurs extrêmes ne s’éloignent pas trop des valeurs voisines (Si une des 2 valeurs est aberrante, l’étendue donne une fausse idée de la dispersion)
max(X, na.rm = T) - min(X, na.rm = T)

L’intervalle interquartile:

  • L’intervalle interquartile: c’est la différence entre les valeurs du premier et du troisième quartile
  • Cet intervalle s’affranchit des valeurs extrêmes (contrairement à l’étendue), c’est donc un meilleur paramètre de dispersion

Variance

  • Variance: la variance d’une distribution est la moyenne des carrés des écarts à la moyenne de chaque valeur
  • Indicateur de dispersion le plus utilisé

  • Plusieurs formules possibles:

  • Il existe une formule légèrement différente avec le terme “n-1” au dénominateur. Elle est utilisée lorsqu’on estime une variance inconnue en travaillant sur un échantillon de taille “n”

var(X, na.rm = T)

Écart-type

  • Écart-type (déviation standard, sd : standard déviation)
  • \(\sqrt{var}\)
  • unité : identique à l’unité de la variable étudiée
sd(X, na.rm = T)

Coefficient de variation

  • Coefficient de variation: indicateur combinant moyenne et écart-type

  • Calcul : \(CV = \frac{\sigma }{\mu}*100\%\)

  • C’est un nombre sans dimension, exprimé en pourcentage

  • Il exprime le degré de dispersion d’une distribution en fonction de la valeur moyenne. Il est utilisé pour comparer la dispersion de 2 variables quantitatives de nature différente (unités différentes)

Variables qualitatives

Fréquences relatives

  • Fréquence relative: pour résumer une distribution : calculer les fréquences relatives des sujets porteurs de chaque modalité. Ces proportions comprises entre 0 et 1,
Stade cancer N Pi (%)
1 88 54
2 29 17,8
3 34 20,9
4 12 7,4
Total 163 100
table(X)
prop.table(table(X))

Croisements

Croisement entre les variables Quantitatives

  • Évaluation graphique (cf. cours suivant)

  • Coefficient de corrélation linéaire de Bravais Pearson

  • \(\rho =\frac{\sum\left[\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)\right]}{\sqrt{\mathrm{\Sigma}\left(x_i-\overline{x}\right)^2\ \ast\ \mathrm{\Sigma}(y_i\ -\overline{y})^2}}\)

  • \(-1\leq \rho \leq 1\)

cor(X,Y)

\(\rho \approx -1\)

\(\rho \approx 0\)

\(\rho \approx 1\)

Croisement entre les variables qualitatives

  • Tableau de contingence
age / Sexe H F
0-5 4 4
5-10 2 8
1-18 4 11

Croisement Quanti/Quali

  • Mêmes éléments que description quanti mais par groupe
The data contains 150 observations, grouped by Species, of the following 3 variables:

- setosa (n = 50):
  - Petal.Length: Mean = 1.46, SD = 0.17, range: [1, 1.90]
  - Petal.Width: Mean = 0.25, SD = 0.11, range: [0.10, 0.60]

- versicolor (n = 50):
  - Petal.Length: Mean = 4.26, SD = 0.47, range: [3, 5.10]
  - Petal.Width: Mean = 1.33, SD = 0.20, range: [1, 1.80]

- virginica (n = 50):
  - Petal.Length: Mean = 5.55, SD = 0.55, range: [4.50, 6.90]
  - Petal.Width: Mean = 2.03, SD = 0.27, range: [1.40, 2.50]